智能论文笔记

Empirical Study of Quality Image Assessment for Synthesis of Fetal Head Ultrasound Imaging with DCGANs

Thea Bautista , Jacqueline Matthew , Hamideh Kerdegari , Laura Peralta Pereira , Miguel Xochicale

分类：计算机视觉 | 机器学习

2022-06-01

在这项工作中，我们介绍了DCGAN的实证研究，包括超参数启发式方法和图像质量评估，以解决研究数据集的稀缺性，以研究胎儿头超声。我们提出了实验，以显示不同图像分辨率，时期，数据集大小输入和对四个指标质量图像评估的学习速率的影响：互信息（MI），fr \'Echet Inception Inteption距离（FID），峰值信号到峰值信号-noise比率（PSNR）和局部二进制模式矢量（LBPV）。结果表明，FID和LBPV与临床图像质量评分具有更强的关系。复制此工作的资源可在\ url {https://github.com/budai4medtech/miua2022}中获得。

translated by 谷歌翻译

A Frequency-Structure Approach for Link Stream Analysis

Esteban Bautista , Matthieu Latapy

分类：机器学习

2022-12-07

A link stream is a set of triplets $(t, u, v)$ indicating that $u$ and $v$ interacted at time $t$. Link streams model numerous datasets and their proper study is crucial in many applications. In practice, raw link streams are often aggregated or transformed into time series or graphs where decisions are made. Yet, it remains unclear how the dynamical and structural information of a raw link stream carries into the transformed object. This work shows that it is possible to shed light into this question by studying link streams via algebraically linear graph and signal operators, for which we introduce a novel linear matrix framework for the analysis of link streams. We show that, due to their linearity, most methods in signal processing can be easily adopted by our framework to analyze the time/frequency information of link streams. However, the availability of linear graph methods to analyze relational/structural information is limited. We address this limitation by developing (i) a new basis for graphs that allow us to decompose them into structures at different resolution levels; and (ii) filters for graphs that allow us to change their structural information in a controlled manner. By plugging-in these developments and their time-domain counterpart into our framework, we are able to (i) obtain a new basis for link streams that allow us to represent them in a frequency-structure domain; and (ii) show that many interesting transformations to link streams, like the aggregation of interactions or their embedding into a euclidean space, can be seen as simple filters in our frequency-structure domain.

translated by 谷歌翻译

GAUDI: A Neural Architect for Immersive 3D Scene Generation

Miguel Angel Bautista , Pengsheng Guo , Samira Abnar , Walter Talbott , Alexander Toshev , Zhuoyuan Chen , Laurent Dinh , Shuangfei Zhai , Hanlin Goh , Daniel Ulbricht

分类：计算机视觉 | 机器学习

2022-07-27

我们介绍了Gaudi，Gaudi是一种生成模型，能够捕获可以从移动的相机中沉浸式的复杂和现实3D场景的分布。我们通过一种可扩展而强大的方法解决了这个具有挑战性的问题，我们首先优化了散布辐射场和相机姿势的潜在表示。然后，该潜在表示将学习一个生成模型，该模型可以使3D场景的无条件生成和条件生成。我们的模型概括了以前的作品，该作品通过删除可以在样本中共享相机姿势分布的假设来关注单个对象。我们表明，高迪（Gaudi）在多个数据集的无条件生成设置中获得了最先进的性能，并允许有条件地生成3D场景给定的调理变量，例如稀疏图像观测值或描述场景的文本。

translated by 谷歌翻译

Scene Text Recognition with Permuted Autoregressive Sequence Models

Darwin Bautista , Rowel Atienza

分类：计算机视觉 | 自然语言处理

2022-07-14

上下文感知的str方法通常使用内部自回旋（AR）语言模型（LM）。 AR模型的固有局限性动机是采用外部LM的两阶段方法。输入图像上外部LM的条件独立性可能导致其错误地纠正正确的预测，从而导致明显的低效率。我们的方法Parseq使用置换语言建模学习了具有共同权重的内部AR LMS集合。它统一了无上下文的非AR和上下文感知的AR推断，并使用双向上下文统一了迭代的精致。使用合成训练数据，Parseq实现了最新的（SOTA），从而获得了Str基准（精度为91.9％）和更具挑战性的数据集。在对实际数据进行培训时，它建立了新的SOTA结果（精度为96.0％）。 Parseq由于其简单，统一的结构和平行的令牌处理，对准确性与参数计数，拖放和延迟非常最佳。由于其广泛使用了注意力，它对在现实世界图像中常见的任意导向文本具有鲁棒性。代码，预处理的权重和数据可在以下网址提供：https：//github.com/baudm/parseq。

translated by 谷歌翻译

The SPACE THEA Project

Martin Spathelf , Oliver Bendel

分类：人工智能 | 机器人

2022-06-17

在某些情况下，没有专业的人类接触。因此，一个人的问题和恐惧仍然存在。载人的火星飞行肯定是这样的情况。表现出同理心并协助宇航员的语音助手可能是解决方案。在Space Thea项目中，使用Google Assistant和DialogFlow Essentials开发了具有此类功能的原型。语音助手具有基于功能智力，诚意，创造力和情商等特征的个性。它在七种不同的场景中证明了自己，旨在代表宇航员的日常生活，解决了运营危机和人类问题。本文详细介绍了七个方案，并列出了语音助手的技术和概念基础。最后，陈述了最重要的结果，并总结了章节。

translated by 谷歌翻译

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren , Omer Goldman , Salam Khalifa , Nizar Habash , Witold Kieraś , Gábor Bella , Brian Leonard , Garrett Nicolai , Kyle Gorman , Yustinus Ghanggo Ate

分类：自然语言处理

2022-05-07

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

Fast and Explicit Neural View Synthesis

Pengsheng Guo , Miguel Angel Bautista , Alex Colburn , Liang Yang , Daniel Ulbricht , Joshua M. Susskind , Qi Shan

分类：计算机视觉 | 机器学习

2021-07-12

我们研究了从3D对象组成的场景的稀疏源观察的新型视图综合的问题。我们提出了一种简单但有效的方法，既不是持续的也不是隐含的，挑战近期观测综合的趋势。我们的方法将观察显式编码为启用摊销渲染的体积表示。我们证明，虽然由于其表现力，但由于其表现力，但由于其富有力的力量，我们的简单方法获得了与最新的基线的比较比较了与最先进的基线的相当甚至更好的新颖性重建质量，同时增加了渲染速度超过400倍。我们的模型采用类别无关方式培训，不需要特定于场景的优化。因此，它能够将新颖的视图合成概括为在训练期间未见的对象类别。此外，我们表明，通过简单的制定，我们可以使用视图综合作为自我监控信号，以便在没有明确的3D监督的情况下高效学习3D几何。

translated by 谷歌翻译